1-а. Последний релиз проиндексирован 7 сентября 2009 года и содержит 108577013 записей.
2-b. "Data Class" банка EMBL.
ANN: Constructed sequence with annotation | - |
CON: Constructed sequence | - |
EST: Expressed Sequence Tag | 62846990 |
GRV: Genome Reviews | - |
GSS: Genome Survey Sequence | 25905073 |
HTC: High Throughput cDNA sequencing | 549753 |
HTG: High Throughput Genome sequencing | 142473 |
MGA: Mass Genome Annotation | - |
PAT: Patent | 10439165 |
SET: Project set (EMBL WGS Masters only) | - |
STD: Standard | 7253026 |
STS: Sequence Tagged Site | 1310171 |
TPA: Third Party Annotation | 6520 |
TSA: Transcriptome Shotgun Assembly | 123842 |
WGS: Whole Genome Shotgun | - |
1-с. Cписок разделов ("Divisions") банка EMBL .
ENV: Environmental Samples (образцы из окружающей среды) | 4145029 |
FUN: Fungi (Грибы) | 3942084 |
HUM: Human (Человек) | 12841544 |
INV: Invertebrates (Беспозвоночные) | 15518735 |
MAM: Other Mammals (Остальные млекопитающие) | 9429823 |
MUS: Mus musculus (Домовая мышь) | 7424621 |
PHG: Bacteriophage (Бактериофаги) | 5865 |
PLN: Plants (Растения) | 33806044 |
PRO: Prokaryotes (Прокариоты) | 909986 |
ROD: Rodents (Грызуны) | 2261678 |
SYN: Synthetic (Искусственно синтезированные) | 2671622 |
TGN: Transgenic (Трансгенные) | 265465 |
UNC: Unclassified (Неклассифицированные) | 3945859 |
VRL: Viruses (Вирусы) | 827405 |
VRT: Other Vertebrates (Другие позвоночные) | 10581253 |
1-d. Диаграмма, показывающая сколько стандартных записей (класса STD) появилось в каждом из 3 разделов HUM, FUN, MAM за май 2008 и 2009 годов.
май.08 | май.09 | |
Hum | 23376 | 1316 |
Fun | 4704 | 4350 |
Mam | 2512 | 1870 |
Количестыо записей уменьшилось во всех трех разделах. Наиболее сильный спад наблюдается в разделе человека.
2. Характеристика гена SMRNP.
Направление прямое. | |
Число кодирующих последовательностей | 5 |
Длина первого кодирующего участка: | 36 |
Длина последнего кодирующего участка: | 126 |
Длина первого интрона: | 612 |
Длина последнего интрона: | 109 |
3. Самый длинный кодирующий участок равен 126 нуклеотидам (от 146139 до 146264).
seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): BA000025.embl
Begin at position [start]: 146139
End at position [end]: 146264
Reverse strand [N]: N
output sequence(s) [ba000025.fasta]: long
Для поиска я выбрал программу BlastX. Файл Long с вырезанным участком последовательности я загрузил через Upload File. После чего выбрал базу данных SwissProt и начал поиск.
Всего было найден о 3 белка. Лучший найденный белок LSM2 (U6 small nuclear RNA associated) с e-value=5e-08. Участок белка с 65 по 95 аминокислотных остатков соответствует экзону.
4. В Записи Swiss-Prot описывающей белок P0A935 были взяты ссылки на банк EMBL.
Идентификатор записи EMBL |
Тип молекулы |
Класс данных |
Раздел EMBL |
Длина последовательности |
Дата создания документа |
Описание |
AP009048 |
genomic DNA |
STD |
PRO |
4646332 |
22-JAN-2006 |
Escherichia coli str. K12 substr. W3110 DNA, complete genome. |
U00096 |
genomic DNA |
STD |
PRO |
4639675 |
23-FEB-2006 |
Escherichia coli str. K-12 substr. MG1655, complete genome. |
U29581 |
genomic DNA |
STD |
PRO |
71128 |
05-JUL-1995 |
Escherichia coli K-12 genome; approximately 63 to 64 minutes. |
U32224 |
genomic DNA |
STD |
PRO |
1405 |
06-SEP-1995 |
Escherichia coli membrane-bound lytic transglycosylase A precursor (mltA) gene, complete cds. |
Как видно из таблицы все последовательности относятся к классу STD микроорганизма Escherichia coli. Первые две записи AP009048 и U00096 описывают полный геном Escherichia coli, поэтому они имеют такую большую длину последовательности. Последняя последовательность U32224 кодирует mltA. Дата создания полного генома позже даты создания определенных последовательностей кодирующих белки.